DAY6

第 12 屆 iThome 鐵人賽

DAY 7

AI & Data

資資不倦系列第 7 篇

12th鐵人賽

brian20298481

2020-09-16 23:41:03

992 瀏覽

分享至

使用各種分類模型的時機
概要: 前面7天學了各種分類模型以及使用方法. 但學了這麼多,還是要了解一下各個模型的強弱之處,以便於未來能夠因應各種不同的情況來選擇最適合的模型.

{如何根據各個模型的強弱來決定使用何者}
1.希望預測最終概率的情形:
線性問題: 邏輯回歸
非線性問題: 樸素貝葉斯
2.希望預測所屬集群或分布:
SVM
3.希望非常直觀的闡述所示模型:
Decision tree
4.最準確的模型,且不太在意模型的闡述方式:
Random forest

{偽陰性, 偽陽性}
偽陰性: 把正向的結果表示為負
偽陽性: 把負面的結果表示為正
結: 偽陽性的嚴重性比偽陰性來得更嚴重,若是不懂就想想醫生的例子: 本來有病, 結果醫生告訴你沒病,會拖延到治療,導致結果更為嚴重

{CAP CURVE 累積準確曲線}

假設我們要預測10個人中誰是有可能成績不及格被當，已知10位母體中有5個人被當，那麼我不用用模型，隨便用猜的就應該有50%的命中率，畢竟母體裡就有一半的人是被當的人啊!

這就代表用模型的準確率必須高於50%，模型才具有說服力。我將這10個人依據被當機率值從大到小排序，成績最差的排最前面，然後設定機率值50%以上就算命中。
從下表中可以看到，第一筆預測99%被當機率的人其實沒被當，所以模型打中數是0，代表這筆被蠻嚴重的錯估了。但是第2筆到第5筆，模型預估的不及格機率值都蠻高的，這些人也都確實有被當，因此這個模型在第6筆就準確抓完5個被當的學生，遠高於第六筆的隨機值3個，模型準確率如同射氣球高手一樣，非常高!